#Reward Model

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

6个月前

语言的自指其实反映了人性中张力的自我突破循环。没有完美的群体秩序基质，历史上群体秩序最长的大概是周朝绵延八百年。就像LLM也没有完美的Rward Model，只要有，就一定存在对这种RM的exploit或hack。

#语言自指 #人性张力 #群体秩序 #LLM #Reward Model

1年前

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。明天仔细研读下，并着手在实际的领域中尝试落地。

#DeepSeek #思考模型 #GRPO #Reward Model #RL #PRM #MCTS #cot训练